跳到主要内容

nvidia-smi 各种命令

nvidia-smi 是 NVIDIA System Management Interface,它是一个命令行实用程序,用于监控和管理 NVIDIA GPU 设备。以下是命令行选项的概述和解释:

基本选项

  • -h, --help: 显示帮助信息并退出。

列表选项

  • -L, --list-gpus: 显示连接到系统的 GPU 列表。
  • -B, --list-excluded-gpus: 显示系统中排除的 GPU 列表。

摘要选项

  • <no arguments>: 显示连接到系统的 GPU 的摘要。
  • -i, --id=: 指定特定 GPU。
  • -f, --filename=: 将日志记录到指定文件,而非标准输出。
  • -l, --loop=: 在指定的秒间隔内循环探测直到 Ctrl+C。

查询选项

  • -q, --query: 显示 GPU 或单元信息。
  • -u, --unit: 显示单元而非 GPU 属性。
  • -x, --xml-format: 生成 XML 输出。
  • --dtd: 在显示 XML 输出时,嵌入 DTD。
  • -d, --display=: 仅显示选定信息(如内存、利用率等)。
  • -lms, --loop-ms=: 在指定的毫秒间隔内循环探测直到 Ctrl+C。

选择性查询选项

  • --query-gpu: 查询 GPU 信息。
  • --query-supported-clocks: 列出支持的时钟。
  • --query-compute-apps: 列出当前活动的计算进程。
  • --query-accounted-apps: 列出已记账的计算进程。
  • --query-retired-pages: 列出已退役的设备内存页面。
  • --query-remapped-rows: 查询重映射行的信息。
  • --format=: 指定格式选项,如 csv。

设备修改选项

  • -pm, --persistence-mode=: 设置持久模式。
  • -e, --ecc-config=: 切换 ECC 支持。
  • -p, --reset-ecc-errors=: 重置 ECC 错误计数。
  • -c, --compute-mode=: 为计算应用程序设置模式。
  • --gom=: 设置 GPU 操作模式。
  • -r, --gpu-reset: 触发 GPU 重置。
  • -vm, --virt-mode=: 切换 GPU 虚拟化模式。
  • -lgc, --lock-gpu-clocks=: 锁定 GPU 时钟速度。
  • -rgc, --reset-gpu-clocks: 重置 GPU 时钟到默认值。
  • -lmc, --lock-memory-clocks=: 锁定内存时钟速度。
  • -rmc, --reset-memory-clocks: 重置内存时钟到默认值。
  • -ac, --applications-clocks=: 指定应用程序运行时的 GPU 时钟速度。
  • -pl, --power-limit=: 指定最大功率管理限制。
  • -am, --accounting-mode=: 启用或禁用记账模式。
  • -mig, --multi-instance-gpu=: 启用或禁用多实例 GPU。
  • -gtt, --gpu-target-temp=: 设置 GPU 目标温度。

单元修改选项

  • -t, --toggle-led=: 设置单元 LED 状态。

显示 DTD 选项

  • --dtd: 打印设备 DTD 并退出。

统计选项

  • stats: 显示设备统计信息(已弃用)。

设备监控

  • dmon: 以滚动格式显示设备统计。
  • daemon: 作为守护进程在后台运行并监控设备。
  • replay: 用于重放/提取由守护进程生成的持久统计信息。

进程监控

  • pmon: 以滚动格式显示进程统计。

其他功能

  • topo: 显示设备/系统拓扑。
  • drain: 显示/修改 GPU 排空状态以进行电源怠速。
  • nvlink: 显示设备 NVLINK 信息。
  • clocks: 控制和查询时钟信息。
  • encodersessions: 显示设备编码器会话信息。
  • fbcsessions: 显示设备 FBC 会话信息。
  • vgpu: 显示 vGPU 信息。
  • mig: 提供 MIG 管理控制。
  • compute-policy: 控制和查询计算策略。
  • boost-slider: 控制和查询提升滑块。
  • power-hint: 估算 GPU 电源使用情况。
  • base-clocks: 查询 GPU 基础时钟。
  • ccu: 控制和查询计数器收集单元。

这些选项提供了对 NVIDIA GPU 的深度监控和管理功能,从简单的状态查询到复杂的配置调整。使用这些选项时,某些可能需要管理员权限或特定的硬件支持。